Pesquisa | Portal Regional da BVS

An empirical analysis of homicides in Mexico through Machine Learning and statistical design of experiments

Silva Urrutia, Jose Eliud; Villalobos, Miguel A..

Poblac. salud mesoam ; 20(1)dic. 2022.

Artigo em Inglês | LILACS-Express | LILACS | ID: biblio-1448827

RESUMO

Homicide is one of the most important mortality causes that has reduced the Mexican life expectancy. That is why the aim of this work is to identify some sociodemographic and economic factors that can help explain homicides in Mexico and measure their impact, assuming the current conditions prevail. To do that, several Machine Learning (ML) methods were evaluated. The C5.0 model is best suited for the data at hand. After fine-tuning the algorithm, we used the estimated model to identify the main factors that explain homicides. Among these factors, eleven were selected that can be influenced by direct changes in domestic public policy, laws and/or regulations. These were used as input in a two-level fractional factorial Statistical Design of Experiments (DOE) to estimate their main effects and possible interactions. Although several of these factors had statistically significant effects on homicide rate, the one that had the biggest and direct impact from a practical perspective, was the Rule of Law Index (RLI). In fact, if we assumed that all states had the median RLI of 0.37, implementing domestic policies and procedures to move them all to the best RLI level could significantly reduce homicide rates.

El homicidio es una de las principales causas de muerte que ha reducido la esperanza de vida de los mexicanos. El objetivo de este trabajo es identificar algunos factores sociodemográficos y económicos que puedan ayudar a explicar homicidios en México y medir su impacto, suponiendo que las condiciones actuales permanecen. Para lograrlo, comparamos diferentes métodos de Aprendizaje de Máquina (AM). Para tal fin, se encuentra que el modelo C5.0 es el más adecuado. Después de hacer una calibración final del modelo, lo utilizamos para determinar los veinticinco principales factores que explican el fenómeno de homicidios. Se seleccionan 11 factores que se consideran pueden ser influenciados directamente por cambios en políticas públicas, leyes y/o regulaciones. Estos predictores fueron utilizados como entrada en un diseño de experimentos factorial fraccionado con dos niveles para estimar los principales efectos principales e interacciones posibles. A pesar de que varios de estos factores tuvieron impactos estadísticamente significativos, el que mostró tener el mayor impacto directo desde una perspectiva práctica fue el Índice de Estado de Derecho (IED). De hecho, asumiendo que todos los estados tuvieran el valor de IED de 0.37, correspondiente a la mediana en todo el país, si se implementaran políticas y procedimientos para ubicar a todos los estados al nivel del mejor estado en términos de IED, se lograría una reducción altamente significativa en la incidencia de homicidios en México.

Caracterización de un corpus extraído de historias clínicas electrónicas de maternas a través de técnicas de procesamiento de lenguaje natural / Characterization of a corpus extracted from maternal electronic health records through natural language processing techniques

Durango Barrera, María Camila; Torres Silva, Ever Augusto; Florez-Arango, José Fernando; Orozgo-Duque, Andrés.

Rev. cub. inf. cienc. salud ; 32(4)dic. 2021.

Artigo em Espanhol | LILACS, CUMED | ID: biblio-1408108

RESUMO

Este artículo tuvo como propósito caracterizar el texto libre disponible en una historia clínica electrónica de una institución orientada a la atención de pacientes en embarazo. La historia clínica electrónica, más que ser un repositorio de datos, se ha convertido en un sistema de soporte a la toma de decisiones clínicas. Sin embargo, debido al alto volumen de información y a que parte de la información clave de las historias clínicas electrónicas está en forma de texto libre, utilizar todo el potencial que ofrece la información de la historia clínica electrónica para mejorar la toma de decisiones clínicas requiere el apoyo de métodos de minería de texto y procesamiento de lenguaje natural. Particularmente, en el área de Ginecología y Obstetricia, la implementación de métodos del procesamiento de lenguaje natural podría ayudar a agilizar la identificación de factores asociados al riesgo materno. A pesar de esto, en la literatura no se registran trabajos que integren técnicas de procesamiento de lenguaje natural en las historias clínicas electrónicas asociadas al seguimiento materno en idioma español. En este trabajo se obtuvieron 659 789 tokens mediante los métodos de minería de texto, un diccionario con palabras únicas dado por 7 334 tokens y se estudiaron los n-grams más frecuentes. Se generó una caracterización con una arquitectura de red neuronal CBOW (continuos bag of words) para la incrustación de palabras. Utilizando algoritmos de clustering se obtuvo evidencia que indica que palabras cercanas en el espacio de incrustación de 300 dimensiones pueden llegar a representar asociaciones referentes a tipos de pacientes, o agrupar palabras similares, incluyendo palabras escritas con errores ortográficos. El corpus generado y los resultados encontrados sientan las bases para trabajos futuros en la detección de entidades (síntomas, signos, diagnósticos, tratamientos), la corrección de errores ortográficos y las relaciones semánticas entre palabras para generar resúmenes de historias clínicas o asistir el seguimiento de las maternas mediante la revisión automatizada de la historia clínica electrónica(AU)

The purpose of this article was to characterize the free text available in an electronic health record of an institution, directed at the care of patients in pregnancy. More than being a data repository, the electronic health record (HCE) has become a clinical decision support system (CDSS). However, due to the high volume of information, as some of the key information in EHR is in free text form, using the full potential that EHR information offers to improve clinical decision-making requires the support of methods of text mining and natural language processing (PLN). Particularly in the area of gynecology and obstetrics, the implementation of PLN methods could help speed up the identification of factors associated with maternal risk. Despite this, in the literature there are no papers that integrate PLN techniques in EHR associated with maternal follow-up in Spanish. Taking into account this knowledge gap, in this work a corpus was generated and characterized from the EHRs of a gynecology and obstetrics service characterized by treating high-risk maternal patients. PLN and text mining methods were implemented on the data, obtaining 659 789 tokens and a dictionary with unique words given by 7 334 tokens. The characterization of the data was developed from the identification of the most frequent words and n-grams and a vector representation of embedding words in a 300-dimensional space was performed using a CBOW (Continuous Bag of Words) neural network architecture. The embedding of words allowed to verify by means of Clustering algorithms, that the words associated to the same group can come to represent associations referring to types of patients, or group similar words, including words written with spelling errors. The corpus generated and the results found lay the foundations for future work in the detection of entities (symptoms, signs, diagnoses, treatments), correction of spelling errors and semantic relationships between words to generate summaries of medical records or assist the follow-up of mothers through the automated review of the electronic health record(AU)

Assuntos

Humanos , Feminino , Gravidez , Processamento de Linguagem Natural , Registros Eletrônicos de Saúde

Comparing the predictive power of the CART and CTREE algorithms / Comparando o poder preditivo dos Algoritmos CART e CTREE / Comparando el poder predictivo de los algoritmos CART y CTREE

Gomes, Cristiano Mauro Assis; Lemos, Gina C; Jelihovschi, Enio G.

Aval. psicol ; 19(1): 87-96, jan.-abr. 2020. tab, il

Artigo em Inglês | LILACS, Index Psicologia - Periódicos | ID: biblio-1089026

RESUMO

The CART algorithm has been extensively applied in predictive studies, however, researchers argue that CART produces variable selection bias. This bias is reflected in the preference of CART in selecting predictors with large numbers of cutpoints. Considering this problem, this article compares the CART algorithm to an unbiased algorithm (CTREE), in relation to their predictive power. Both algorithms were applied to the 2011 National Exam of High School Education, which includes many categorical predictors with a large number of categories, which could produce a variable selection bias. A CTREE tree and a CART tree were generated, both with 16 leaves, from a predictive model with 53 predictors and the students' writing essay achievement as the outcome. The CART algorithm yielded a tree with a better outcome prediction. This result suggests that for large data sets, called big data, the CART algorithm might give better results than the CTREE algorithm.(AU)

O algoritmo CART tem sido aplicado de forma extensiva em estudos preditivos. Porém, pesquisadores argumentam que o CART apresenta sério viés seletivo. Esse viés aparece na preferência do CART pelos preditores com grande número de categorias. Este artigo considera esse problema e compara os algoritmos CART e CTREE, este considerado não enviesado, tomando como resultado seu poder preditivo. Os algoritmos foram aplicados no Exame Nacional do Ensino Médio de 2011, no qual estão incluídos vários preditores nominais e ordinais com muitas categorias, o que pode produzir um viés seletivo. Foram geradas uma árvore do CTREE e outra do CART, ambas com 16 folhas, provenientes de um modelo com 53 variáveis preditoras e a nota da redação, como desfecho. A árvore do algoritmo CART apresentou uma melhor predição. Para grandes bancos de dados, possivelmente o algoritmo CART é mais indicado do que o algoritmo CTREE.(AU)

El algoritmo CART es ampliamente utilizado en análisis predictivos. Sin embargo, los investigadores argumentan que el CART presenta un fuerte sesgo de selección. Este sesgo se refleja en el CART en la preferencia de seleccionar predictores con elevado número de categorías. Teniendo en cuenta este problema, el presente artículo compara el algoritmo CART y un algoritmo imparcial (CTREE) con relación a su poder predictivo. Ambos algoritmos se aplicaron en el Examen Nacional de la Enseñanza Secundaria de 2011, incluyendo predictores nominales y ordinales con diversas categorías, un escenario susceptible de producir el sesgo de selección de variables mencionado. Fueron generados un árbol CTREE y un árbol CART, ambos con 16 hojas, provenientes de un modelo predictivo con 53 variables y la nota del comentario de texto. El árbol del algoritmo CART presentó mejor predicción. Para grandes bases de datos el algoritmo CART puede proporcionar mejores resultados que el CTREE.(AU)

Assuntos

Algoritmos , Árvores de Decisões , Ensino Fundamental e Médio , Avaliação Educacional , Viés de Seleção , Valor Preditivo dos Testes

RESUMO

RESUMO

Assuntos

RESUMO

Assuntos

ENVIAR RESULTADO:

SELEÇÃO DE REFERÊNCIAS

DETALHE DA PESQUISA